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Построение высокопроизводительной 
дисковой подсистемы для суперкомпьютеров 
кластерной архитектуры 


Исследованы общие концепции высокопроизводительной дисковой подсистемы как непременной 
составной части суперкомпьютеров кластерной архитектуры, а также рассмотрено ее построение в 
составе кластерного комплекса СКИТ. 


Введение 


Современные высокопроизводительные суперкомпьютеры кластерной архитек- 
туры кроме надежного централизованного хранилища данных на основе параллельной 
файловой системы для своей эффективной работы также требуют быстродействующую 
временную дисковую систему на основе выделенных дисковых серверов, которая 
нужна для следующих целей: 

1. Во время своей работы узлы вычислительного кластера требуют очень 
много виртуальной памяти. Обычно она размещается в разделе подкачки жесткого 
диска (5у’ар рагИоп). 

2. Большинство кластерных вычислительных задач в процессе своей работы 
производят промежуточные результаты, которые сохраняются во временных файлах 
на диске. И быстродействие таких программ значительно увеличилось, если бы эти 
файлы сохранялись во временной файловой системе с высоким быстродействием. 

Конечно, для таких целей можно использовать отдельный локальный жесткий 
диск для каждого узла кластера, но такое решение имеет ряд недостатков: 

1. Отдельный жесткий диск, сколь бы производительным он ни был, не в 
состоянии обеспечить необходимое пиковое быстродействие для временной файло- 
вой системы. 

2. Неэффективное использование оборудования, поскольку если сгруппиро- 
вать жесткие диски в одном или нескольких дисковых серверах, то их можно 
использовать для нужд кластера в наиболее полном объеме, причем для достижения 
достаточного пикового быстродействия необходимо значительно меньшее количе- 
ство самих жестких дисков на кластер. 

3. Экономическая нецелесообразность — такой подход приводит к значитель- 
ному удорожанию кластерного комплекса, при этом без реализации требуемого 
быстродействия. 

4. Уменьшается надежность кластера, поскольку огромное число несгруп- 
пированных локальных жестких дисков является дополнительной точкой отказа, а в 
дисковых серверах можно использовать дополнительные методы отказоустойчи- 
вости, например дисковые АА/) массивы. 

Рассмотрим детальнее основную концепцию дисковой подсистемы кластера. 
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Концепция дисковой подсистемы 


Основная концепция дисковой подсистемы кластера следующая. Существует 
отдельный дисковый сервер, который имеет массив жестких дисков. Он по сети 
экспортирует так называемые виртуальные диски, для каждого узла кластера — свой 
отдельный. Каждый узел подсоединяет по сети свой виртуальный жесткий диск, и 
работает с ним так, словно бы он являлся его собственным физическим диском. Все 
операции чтения / записи при этом транслируются по сетевой среде на дисковый 
сервер. Такой подход позволяет использовать бездисковые вычислительные узлы 
кластера, к тому же их быстродействие будет не хуже, а во многих случаях даже 
лучше, чем у аналогичных узлов с локальными жесткими дисками. 

При этом для дисковой подсистемы кластера более важным будет 
максимальное быстродействие при работе с одним клиентом, чем ее общая 
производительность при одновременном обслуживании многих узлов, что более 
критично для централизованного хранилища данных кластера, поскольку способ 
использования виртуальной памяти и временной файловой системы не предусмат- 
ривает массовые операции чтения/записи. 

Возможно, наиболее известной технологией для построения дисковых систем 
является протокол /егпе! 5С51 (15051) [1]. Применение этого сквозного (еп4-®ю-епа) 
протокола позволяет транспортировать блоки данных 5С5Г устройств между 
клиентом и сервером, используя стек ТСРИР (рис. 1). Преимуществом данной 
технологии является простота и дешевизна реализации, поскольку при этом 
задействуется существующая инфраструктура сети Еегие!. Но последнее порож- 
дает и главные недостатки, а именно, недостаточное быстродействие (максимальная 
полоса пропускания сети Ещфегиеё составляет 1 Гбит/с с высокой латентностью 
передачи данных), а также низкая отказоустойчивость. Поэтому она не получила ши- 
рокого применения в сфере кластерных суперкомпьютеров. 


|Р сеть 


Маршрутизатор 


= Робочая 
15С$ накопитель станция 15051! накопитель 


1350$! Таре 


Рисунок 1 — ТР сеть с использованием 15СЗ устройств 


Отдельно следует выделить такую технологию как файловая система йирк [2] 
под операционной системой Глиих. Эта файловая система позволяет сохранять 
временные данные в виртуальной памяти компьютера. Подобно файловой гата!5к, 
бир6 использует оперативную память, но, кроме этого, может использовать 5и’ар 
4е\усе5 — устройства подкачки. В то время как традиционный гап1$К — это блочное 
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устройство и перед его использованием необходимо отформатировать раздел 
командой А с опциями, файловая система ипрЁ — устройство не блочное и готово 
к использованию сразу после монтирования. Такие свойства НпрЁ делают ее 
наиболее привлекательной из ААМ-Базе4 файловых систем, известных на сегодняш- 
ний день. 

Ядро Глиих «понимает» ресурс «виртуальная память» именно как единое целое — 
КАМ и 5тар аеусез. Подсистема виртуальной памяти ядра предоставляет эти ресурсы 
другим подсистемам. При этом часто без ведома «подсистемы — заказчика» перемещает 
страницы оперативной памяти в $\ар, а при необходимости возвращает их обратно. 
Файловая система ИпрЁ использует страницы подсистемы виртуальной памяти для 
сохранения файлов. При этом сама ипрЁ не знает, находятся ли эти страницы в $\/ар 
или в КАМ, это задача ядра Глпих. 

Все эти характеристики делают НирЁ идеальным вариантом для быстро- 
действующей файловой системы для временных файлов промежуточных вычисле- 
ний на узлах кластера. При этом дисковая подсистема кластера обеспечивает узлы 
скоростной виртуальной памятью благодаря разделу подкачки на примонтирован- 
ных виртуальных дисках, поскольку самого объема оперативной памяти для таких 
целей будет недостаточно. 


Обзор протокола ЭВР 


В данной статье рассматривается как основа для построения дисковой 
подсистемы кластера новейшая технология 5С5/ КОРМА Ргоюсо[ — 5ЕР [3]. Она 
очень похожа на протокол 13С$Т, рассмотренный выше, но основным отличием 
является то, что 5С5/-блоки данных транспортируются посредством коммуникацион- 
ной сети с прямым удаленным доступом к памяти. Этот протокол детально описан в 
стандарте АМТ ПУСТТ$ 365 -— 2002. 

КОМА (Кетое Опес{ Метогу Ассезз) [4] — это группа протоколов удалённого 
прямого доступа к памяти, при котором передача данных из памяти одного 
компьютера в память другого компьютера происходит без участия операционной 
системы. При этом исключается участие центрального процессора в обработке кода 
переноса и необходимость пересылки данных из памяти приложения в буферную 
область операционной системы, то есть данные пересылаются напрямую на 
соответствующий сетевой контроллер. КОМА поддерживает множество сетевых 
интерконнектов, таких, как Мугте, шЯтфапа, Оцадпс$ и др. На рис. 2 изображена 
модель потока данных КОМА посредством коммутационной сети шН_пап4. 


бепата Ноз! Кесемта Ноз! 


| || 
| 18. | 
| Метогу СЬирзе! СРУ |  Метогу СЬирзе! СРУ 
| | 

„».. | | в. | 
| [8 | 
| [8 | 
| [8 | 
| 8. | 
| || | 


СВ 1 ТХИКХ Р!гз 
СВ 2 ТХ/КХ Риз 


СВ 3 ТХИКХ Риз 
СВ 4 ТХ/КХ Риз 


4х пни Вапа Шик 


Рисунок 2 — КОМА поток данных через шАпфапа 
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Архитектура обычного ЗСТ базируется на клиент-серверной модели. «Клиент», 
которым может быть, например, физический сервер, или рабочая станция, ини- 
циирует запросы на считывание или запись данных с исполнителя — «сервера», в 
роли которого, как правило, выступает система хранения данных. Команды, которые 
выдает «клиент» и обрабатывает «сервер», помещаются в блок описания команды 
(Соттапа Безстрог Воск, СОВ). 

СРВ - это структура, с помощью которой приложение-клиент направляет 
команды устройству-серверу. «Сервер» выполняет команду, а окончание ее выполнения 
обозначается специальным сигналом. Инкапсуляция и надежная доставка СОВ- 
транзакций между инициаторами и исполнителями через КОМА канал и есть главная 
задача ЭКР, причем ее приходится осуществлять в нетрадиционной для ЗСЗ] среде. 

Протокол ЭВР осуществляет контроль передачи блоков данных и обеспечивает 
подтверждение достоверности завершения операции ввода-вывода, что в свою очередь 
обеспечивается через одно или несколько КОМА-соединений. 

Чаще всего в качестве коммуникационной среды КОМА используется 
высокоскоростная сеть ийтрапа [5]. Это архитектура коммутации соединений типа 
«точка-точка». Каждая линия связи представляет собой четырехпроводное двунаправ- 
ленное соединение с пропускной способностью 2,5 Гбит/с в каждом направлении и 
гибким выбором физических линий передачи. В архитектуре шЁшВап определен 
многоуровневый протокол (физический, канальный, сетевой и транспортный уровни) 
для реализации аппаратными средствами, а также программный уровень для поддержки 
управляющих функций и скоростного обмена данными (с малыми задержками) между 
устройствами. Среди главных достоинств архитектуры шЯтВап@ — ее способность 
обеспечить за пределами сервера такую же производительность передачи данных, как и 
внутри него. Перечислим основные характеристики технологии шйтВапа: 

а) возможность масштабирования пропускной способности линий связи до 
30 Гбит/с в дуплексном режиме; 

6) поддержка различных физических линий: медных или оптоволоконных 
кабелей; 

в) связь на базе коммутации пакетов с сохранением целостности данных и 
управлением потоком; 

г) качество обслуживания (00,5); 

д) реализованный аппаратно гибкий транспортный механизм; 

е) оптимизированный программный интерфейс и удаленный прямой доступ в 
память (КОМА); 

ж) инфраструктура управления, поддерживающая функции отказоустойчи- 
вости, аварийного переключения и «горячей» замены. 

В спецификации шЯтВап4 определен чрезвычайно гибкий и масштабирован- 
ный физический уровень, что обеспечивает возможности последующего наращива- 
ния пропускной способности и добавления новых типов поддерживаемых физических 
ЛИНИЙ. 

В операционной системе Глиих стек протоколов Шшйтфап реализуется 
посредством программного пакета ОРЕР (ОрепЕабмс$ Ещегризе О15ё1БиНоп) [6] с 
сайта \у\\у.орепабисз.ого (эта организация занимается разработкой и стандартиза- 
цией драйверов и пользовательского окружения для шЯпфапа). На рис. 3 показано 
местоположение протокола ЗКР в стеке протоколов шйпфапа. 
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Рисунок 3 — Стек протоколов шЯтфапа 


В 5КР протоколе выделяют двух участников. Это серверы — «ЗКР 1агое{5» и 
клиенты — «ЗКР шШаюг$». Клиенты «инициаторы» передают ЗС$ЗТ команды и 
данные через КОМА интерфейс (в нашем случае посредством сети шйпфалпа) на 
сервер, а он уже их непосредственно выполняет над своими $С$]-дисками, а резуль- 
тирующие данные отправляет клиентам. Для клиентов это выглядит прозрачно, как 
если бы они оперировали со своими локальными дисками (рис. 4). 
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Рисунок 4 — Клиент-серверная модель ЗВР через шйтфапа 


На сервере все запросы клиентов обрабатываются посредством ЗЁКР 1агое 
драйвера (5АРТ). Он работает не напрямую с $СЗ[ драйверами физических устройств, а 
через специальный СЗТ пи4Че |еуе| драйвер (5С5Т) [7]. Эта подсистема ядра Глпих 
обеспечивает унифицированный последовательный интерфейс между ЗСЗ агое 
драйверами (в данном случае для драйвера ЗВРТ) и низкоуровневыми $СЗ[ драйверами 
Гапих, что значительно упрощает их разработку (рис. 5). 
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Рисунок 5 — Взаимодействие ЗС5Т с $С$1 — подсистемой Глпих 


Кроме того, этот промежуточный драйвер значительно расширяет функци- 
ональность сервера, он позволяет экспортировать не только физические 5С$Т диски, 
но также программные КАШ-массивы и даже обычные файлы-«образы». При этом 
реальным и виртуальным дискам можно задавать ряд опций экспортирования, а 
также размер блока данных — Б/оск те (по умолчанию 512 Б): 

1. КЕАО_ ОМГУ - задает доступ только для чтения. 

2. УВ ТЕ ТНКОЧОСН - отключает «итйе-Баск» кэширование экспортирован- 
ных дисков. Эта опция снижает производительность, но улучшает надежность 
хранения данных после случайного обрыва сессии. 

3. О ПЩВЕСТ -— отключает кэширование как записи, так и чтения диска, в 
текущей версии 5С$Т эта опция в полном объеме не поддерживается. 

4. МОШЛО - используется для измерений производительности без отсылки 
команд ввода-вывода к реальным дискам. 

5. МУ САСНЕ - включает долговременное сквозное кэширование данных на 
виртуальном диске, эта опция улучшает производительность, но значительно 
снижает надежность хранения данных, поэтому ее целесообразно использовать лишь 
тогда, когда сервер имеет надежное бесперебойное питание. 

6. КЕМОУАВГЕ — эта опция помечает экспортированный диск как съемный 
для инициатора. 

7. ВГОСКТО - задает прямой блочный доступ для экспортированного диска, 
исключая любое страничное кэширование. 

Практическими методами было установлено, что наибольшее быстродействие 
достигается при использовании блока данных, размером 4096 байт с опцией 
сквозного кэширования данных МУ САСНЕ. 
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Также ЭСТ драйвер позволяет управлять доступом к ЗСЗ] дискам на сервере 
для разных клиентов (СИМ тазЮтэ), это дает возможность привязывать к каждому 
клиенту только его собственный виртуальный диск, без доступа к другим, которые 
экспортируются сервером. 

В общем, главными преимуществами этого протокола являются высокое быстро- 
действие, простота реализации, удобство в настройке, надежность, а недостатком 
является высокая стоимость. Но поскольку на большинстве суперкомпьютерах кластер- 
ного типа, как раз в качестве интерконнекта и используется шйпапа, то это делает 
технологию ЗВР чрезвычайно перспективной именно в этой отрасли. 


Реализация дисковой подсистемы 
для кластерного комплекса СКИТ 


В 2004 - 2006 гг. в Институте кибернетики НАН Украины был разработан и 
введенный в эксплуатацию вычислительный комплекс из трех разнородных 
кластерных суперкомпьютеров для информационных технологий СКИТ. Именно на 
нем и были испытаны преимущества быстродействующей дисковой подсистемы. В 
инфраструктуре кластерного комплекса создан экспериментальный ЭКР {агоей сервер 
на базе 8-ми ЗАТА дисков, объемом 400 Гб каждый, объединенных в АА) 5 массив, 
в задачи которого входит экспортирование виртуальных жестких дисков по сети 
шИпапЯ для 24-узлового бездискового кластера СКИТ-1. На узлах эти диски 
используются в качестве источника виртуальной памяти. В качестве временной 
файловой системы для промежуточных результатов вычислений используется 
файловая система ипр. 

Первые тесты показали достаточно высокую эффективность данной техноло- 
гии. Так, скорость последовательного чтения из виртуального диска составляет 
приблизительно 300 МБ/с (измеренная утилитой йарагт), в сравнении, даже для 
самых производительных жестких дисков этот показатель не превышает 80 МБ/с: 

# Бараги —Т /деу/зда 
/Чеу/зАа: 


Тиите сасБед геа45: 2232 МВ ш 2.00 зесопаз = 1114.84 МВ/бес 
Тиите Баегеа 413К геа4$: 906 МВ ш 3.00 зесопаз = 301.98 МВ/зес 


Рассмотрим производительность дисковой подсистемы, в зависимости от 
количества одновременно задействованных виртуальных дисков на узлах при 
максимальной загрузке. Ниже в табл. 1 приведены результаты тестирования произ- 
водительности дисковой подсистемы посредством утилиты Бопше++ на файле, 
размером 4 Гб, для сравнения приведены результаты тестирования файловой 
системы МЕЗ (в тестировании измеряются: пропускная способность — Кбайт/с, 
использование процессора, частота поиска). 

Как видим, по сравнению с МЕ$, ЗВР-диск показывает лучшее быстродействие, 
при полном использовании ЗКР сервера лишь одним узлом, а вот при 
одновременном интенсивном использовании четырьмя и больше клиентами, наблю- 
дается значительное падение скорости блочного чтения/записи. Эта тенденция 
свойственна всем дисковым системам без параллельной архитектуры, и смягчается 
только при значительном увеличении дисков в массиве сервера. Но, как было 
сказано выше, использование виртуальной памяти не предусматривает одновремен- 
ных массовых операции чтения/записи, поэтому такого быстродействия дискового 
сервера вполне достаточно для 24-узлового кластера. 
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Таблица 1 
Последовательное чтение Последовательная запись 
Опера- | Посимво- Поблочно | Перезапись | Посимвольно | Поблочно аи 
ЦИЯ ЛЬНо поиск 
Кб/с Кб/с Кб/с Кб/с Кб/с с 
МЕЗ 26665 27907 3134 29215 84975 460,7 
р 43001 182930 90063 42353 291033 1025 
(1 узел) 
ке 42044 х2 | 76160 х2 38258 х2 39693 х2 139362 х2 182,2 
(2 узла) 
о 26531 х4 | 28395 х4 14951 х4 32294 х4 55102 х4 95,9 
(4 узла) 
ЗКР 
(6 17769 хб | 16964 хб 9651 хб 21213 хб 30620 х 6 57,6 
узлов) 
ЭКР 
(8 12084 х8 (12698 х8 6562 х8 10617х8 13099 х8 40,9 
узлов) 
Выводы 


Представленная концепция дисковой подсистемы на базе высокопродуктивной 
сети шНшфап4, показала свою эффективность при ее реализации на кластерном 
комплексе СКИТ. Она дополняет существующую систему хранения данных, и, 
возможно, станет одной из ключевых технологий для построения высокопроизводи- 
тельных суперкомпьютеров в будущем. 
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О.Ю. Бандура, А.Л. Голов нський, С.Г. Рябчун 

Побудова високопродуктивнот дисково! шдсистеми для суперкомп’ютерв кластерно! архтектури 
Дослджен! загальн! концепцИ високопродуктивно! дисковоГ шдсистеми як неодм!нно! складово! 
частини суперкомп’ютер1в кластерно! арх!тектури, а також розглянута Й побудова в склад! кластер- 
ного комплексу СКП. 


А. Уи. Вап4ига, А.Г. Сооут5Ку, 5.(. КуаБсйип 

Сопзгисйоп оРа Ноп-еЁйсепсу О15К Зи зужет г Зирегсотршег$ ууйв Са$ег АгспНесвиге 

ш агасфе Фе сепега| сопсерб оЁ а ШэЪ-есепсу 41$К забзумбет аз ш15репза Ме сотропепё оЁ 
зирегсопршег$ ИН ста$уег агсЬИес@хге аге геулеуе4, ап а1]50 сопз14еге 15 сопзиасНоп ш звтасвиге оЁ 
са$ег сотр!ех ЭКТ. 


Статья поступила в редакцию 29.07.2008. 
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